Extraction de dates saillantes pour la construction de chronologies thématiques

نویسندگان

  • Rémy Kessler
  • Xavier Tannier
  • Caroline Hagège
  • Véronique Moriceau
  • André Bittar
چکیده

We present an approach for detecting salient (important) dates in texts in order to automatically build event timelines from a search query (e.g. the name of an event or person, etc.). This work was carried out on a corpus of newswire texts in English provided by the Agence France Presse (AFP). In order to extract salient dates that warrant inclusion in an event timeline, we first recognize and normalize temporal expressions in texts and then use a machine-learning approach to extract salient dates that relate to a particular topic. For the time being, we have focused only on extracting the dates and not the events to which they are related. MOTS-CLÉS : dates saillantes, événements, chronologies.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

An Interface for Validating and Evaluating Thematic Timelines (Une interface pour la validation et l'évaluation de chronologies thématiques) [in French]

Actuellement, les journalistes de l’Agence France Presse (AFP) construisent manuellement des chronologies événementielles textuelles dans le but de contextualiser des événements médiatiques. Elles sont sous forme d’une liste de dates (généralement entre 10 et 20) associées à un texte décrivant l’événement ayant eu lieu à cette date. Nous avons développé un système capable de construire ce genre...

متن کامل

PFC: Un outil d'aide à la découverte des contenus des documents et à la création de dossiers

Cet article traite de la construction automatique et dynamique de dossiers consolidés. La construction de dossiers utilise plusieurs étapes : recherche des documents les plus significatifs à partir d’une requête par mots-clés, classification dynamique du résultat de la requête en utilisant plusieurs classifieurs aux comportements différentiés, combinaison des résultats de ces classifieurs pour ...

متن کامل

Apport des données thématiques dans les systèmes de recommandation : hybridation et démarrage à froid

Résumé. Des travaux récents (Pilaszy et al., 2009) suggèrent que les métadonnées sont quasiment inutiles pour les systèmes de recommandation, y compris en situation de cold-start : les données de logs de notation sont beaucoup plus informatives. Nous étudions, sur une base de référence de logs d'usages pour la recommandation automatique de DVD (Netflix), les performances de systèmes de recomman...

متن کامل

Défi EGC 2016 : Analyse par Motifs Fréquents et Topic Modeling

Résumé. Dans le domaine de l’analyse de textes, l’extraction de motifs est une technique très populaire pour mettre en évidence des relations fréquentes entre les mots. De même, les techniques de topic modeling ont largement fait leurs preuves lorsqu’il s’agit de classer automatiquement des ensembles de textes partageant des thématiques similaires. Ainsi, ce papier a pour ambition de montrer l’...

متن کامل

Sous-graphes de cooccurrences pour la détection de thématiques dans un corpus de taille moyenne

RÉSUMÉ. Ce papier aborde la question de la classification non supervisée de documents, dans un contexte de veille sur le Web (corpus de taille moyenne). Notre but est d’assister le veilleur dans deux tâches : 1. dégager des thématiques à partir du corpus ; 2. ranger chaque texte dans une ou plusieurs de ces thématiques. Nous proposons une approche linguistique, reposant sur les plus proches voi...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • TAL

دوره 53  شماره 

صفحات  -

تاریخ انتشار 2012